16 février 2018

Paquetages et données

load("LovaActually.RData")
library(NbClust)
library(clValid)
## Loading required package: cluster
library(plotly)
## Loading required package: ggplot2
## 
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
## 
##     last_plot
## The following object is masked from 'package:stats':
## 
##     filter
## The following object is masked from 'package:graphics':
## 
##     layout

Organisation de la matrice

Il faut d'abord modifier l'ordre des colonnes dans la matrice et produire les matrices de distance. On utilise la matrice de distance euclidienne et la matrice de distance \(\chi^2\).

Soit \(\chi^2\), la matrice de chi carré. Alors, chaque élément de la matrice \(\chi^2\) est calculé selon la formule suivante : \[ \chi^2_{i, j} = \frac{Freq_{i, j}}{\sqrt{Freq_i \times Freq_j}}.\] On produit une matrice de dissimilarité en calculant 1 - \(\chi^2\).

Distance \(\chi^2\)

##                 bill_nighy keira_knightley andrew_lincoln hugh_grant
## bill_nighy               9               2              2          2
## keira_knightley          2               7              7          1
## andrew_lincoln           2               7              8          1
## hugh_grant               2               1              1         13
##                 bill_nighy keira_knightley andrew_lincoln hugh_grant
## bill_nighy       0.0000000      0.74802368     0.76429774  0.8150999
## keira_knightley  0.7480237      0.00000000     0.06458565  0.8951715
## andrew_lincoln   0.7642977      0.06458565     0.00000000  0.9019419
## hugh_grant       0.8150999      0.89517152     0.90194193  0.0000000

Classification hiérarchique euclidienne

Classification hiérarchique \(\chi^2\)

Comparaison des groupes

Distance euclidienne, 3 et 4 clusters

Comparaison des groupes

Distance euclidienne, 5 et 6 clusters

Comparaison des groupes

Distance \(\chi^2\), 3 et 4 clusters

Comparaison des groupes

Distance \(\chi^2\), 5 et 6 clusters

Comparaison avec 3 clusters

Comparaison avec 4 clusters

Comparaison avec 5 clusters

Comparaison avec 6 clusters

Le bon nombre semble être 5 clusters

K-moyennes

On applique le k-moyennes

grps = cutree(hc.eucl, k = 3)
result = kmeans(loveAsDistance, centers = 3) 
table(result$cluster, grps)
##    grps
##     1 2 3
##   1 9 0 0
##   2 0 3 0
##   3 1 0 1

Cet aperçu semble nous indiquer que K-means divise mal les observations du jeu de données.

Comparaison des valeurs de \(k\)

On applique alors K-moyennes sur des nombres de centres de 1 à 10. On s'attend à une courbe en éboulis avec un coude visible qui représente notre bon nombre de centres.

On observe que les graphiques résultants ne sont pas assez décroissants et ne possèdent pas de coude suffisamment apparent. Il ne semble pas y avoir des groupes naturels dans les données.

NbClust euclidienne

On emploie NbClust pour obtenir le nombre optimal de clusters.

NbClust \(\chi^2\)

NbClust valeurs suggérées

## Number_clusters     Value_Index 
##          8.0000          0.5403
## Number_clusters     Value_Index 
##          8.0000          0.5355

La fonction nous indique que le nombre optimal de clusters est le nombre maximal fourni, ce qui semble étrange.

clValid : euclidienne hierarchique

##                        2          3          4           5           6
## APN           0.03463203 0.03435374  0.0430839  0.05187075  0.05442177
## AD           10.73375714 9.52291906  8.3516519  6.86757601  5.76039111
## ADM           0.96699599 1.04652224  1.2383760  0.81101526  1.51373150
## FOM           2.56443785 2.63424099  2.7356397  2.53166472  2.63577423
## Connectivity  6.41865079 9.49325397 12.8222222 16.32619048 22.55555556
## Dunn          0.65707384 0.66995887  0.7757383  0.83512628  0.75180941
## Silhouette    0.24801477 0.20471931  0.2092238  0.19830845  0.22584226
##                        7           8
## APN           0.08027211  0.09353741
## AD            4.88428042  4.18188824
## ADM           1.52373533  1.99375996
## FOM           2.76907173  2.78372950
## Connectivity 24.80555556 28.92222222
## Dunn          0.84983659  0.81649658
## Silhouette    0.19867425  0.19928199

clValid : \(\chi^2\) hierarchique

##                       2          3          4           5           6
## APN           0.2040816  0.1778426  0.1105442  0.08928571  0.04761905
## AD            1.2045100  1.0234462  0.8370965  0.70695462  0.58050599
## ADM           0.4004595  0.3298064  0.2344417  0.17755884  0.09085270
## FOM           0.2688240  0.2673050  0.2536550  0.24262118  0.21712892
## Connectivity 11.4392857 16.1773810 20.4960317 22.37222222 24.08888889
## Dunn          0.7198538  0.7130477  0.7481165  0.74811653  0.84696329
## Silhouette    0.1551043  0.1817823  0.2408443  0.26460351  0.24048680
##                        7           8
## APN           0.06122449  0.07142857
## AD            0.50452603  0.41693203
## ADM           0.12547181  0.14170145
## FOM           0.22535608  0.23455490
## Connectivity 26.42222222 28.67222222
## Dunn          0.84696329  0.88440593
## Silhouette    0.23105532  0.24982683

clValid : euclidienne \(k\)-moyennes

##                        2          3           4           5           6
## APN           0.04205318  0.0521542  0.05782313  0.06972789  0.06802721
## AD           10.75609529  9.3519870  8.25224622  6.93547966  5.75496824
## ADM           1.02903005  1.1444799  1.08498031  1.02478407  1.52878619
## FOM           2.56851467  2.4804332  2.49364733  2.57551398  2.56217119
## Connectivity  6.41865079 12.5972222 12.82222222 16.32619048 22.55555556
## Dunn          0.65707384  0.7375636  0.77573830  0.83512628  0.75180941
## Silhouette    0.24801477  0.2134853  0.20922380  0.19830845  0.22584226
##                        7           8
## APN           0.08027211  0.09693878
## AD            4.83208060  4.14117130
## ADM           1.43499530  1.93927482
## FOM           2.67352206  2.70237309
## Connectivity 24.80555556 28.92222222
## Dunn          0.84983659  0.81649658
## Silhouette    0.19867425  0.19928199

clValid : \(\chi^2\) \(k\)-moyennes

##                       2          3           4          5           6
## APN           0.2091837  0.1860544  0.07619048  0.1088435  0.06122449
## AD            1.1952486  1.0168161  0.78779645  0.7060135  0.57632117
## ADM           0.3779877  0.3424915  0.13555043  0.2006073  0.13100045
## FOM           0.2711160  0.2715078  0.23415318  0.2346719  0.21309636
## Connectivity 12.8341270 17.0353175 20.58888889 23.9126984 26.13888889
## Dunn          0.6912500  0.6763908  0.73124181  0.7651861  0.80895309
## Silhouette    0.1537360  0.1904453  0.26062560  0.2821605  0.30972082
##                        7           8
## APN           0.07142857  0.05102041
## AD            0.50869923  0.40357628
## ADM           0.17360315  0.12917289
## FOM           0.22598223  0.23288911
## Connectivity 28.47222222 29.97222222
## Dunn          0.80895309  0.80895309
## Silhouette    0.29305547  0.28088349

clValid : Choix optimal de groupes euclidiens

##                   Score       Method Clusters
## APN          0.03435374 hierarchical        3
## AD           4.14117130       kmeans        8
## ADM          0.81101526 hierarchical        5
## FOM          2.48043325       kmeans        3
## Connectivity 6.41865079 hierarchical        2
## Dunn         0.84983659 hierarchical        7
## Silhouette   0.24801477 hierarchical        2

clValid : Choix optimal de groupes \(\chi^2\)

##                    Score       Method Clusters
## APN           0.04761905 hierarchical        6
## AD            0.40357628       kmeans        8
## ADM           0.09085270 hierarchical        6
## FOM           0.21309636       kmeans        6
## Connectivity 11.43928571 hierarchical        2
## Dunn          0.88440593 hierarchical        8
## Silhouette    0.30972082       kmeans        6

Meilleur modèle

On choisit le modèle de classification hiererchique avec 6 clusters et la matrice de distance \(\chi^2\).

Conclusions

  • Résultats similaires selon différentes mesures de distance
  • Différence, à quel point les personnes seules se séparent du groupe.
  • Les couples sont tous regroupés à la fin
  • On a eu du plaisir

Projection des données en 2 dimensions

Projection des données en 3 dimensions

Graphique des personnages

Graphique des personnages

Graphique des personnages

Graphique des personnages

Graphique des personnages

Graphique des personnages

Graphique des personnages

Graphique des personnages

Graphique des personnages

Graphique des personnages

Graphique des personnages

Graphique des personnages

Graphique des personnages

Graphique des personnages